Introduzione

BigData, Cloud ed OpenSource

E’ ormai noto che una nuova BuzzWord sta affermandosi in internet e sta forse sostituendosi, o aggiungendosi, alla ormai vecchia “Cloud Computing”.

I BigData.

I due termini, oggetto del bombardamento mediatico internet, sono anche due termini molto strettamente legati tra di loro, come vogliamo dimostrare di seguito. Come vogliamo anche mostrare quanto il mondo BigData sia anch’esso profondamente legato al mondo OpenSource, vediamo ad esempio il legame tra il Cloud Computing e l’OpenSource, nella nostra vecchia nota.

Definizione

Iniziamo con qualche definizione di BigData, per cercare di arginare i soliti errori giornalistici sensazionalistici, o errori voluti a scopo di marketing, come siamo stati abbondantemente abituati relativamente il Cloud Computing. Esiste qualche definizione ufficiale?

Citiamo, WikiPedia, Gartner, IBM e la Villanova University di Tampa (Florida) e più in la anche il NIST:

WikiPedia EN

WikiPedia IT

Gartner – preso dal glossario

IBM – e suggerisco anche questa loro infografica delle 4V

Villanova University

Pertanto sembrano un pò tutti d’accordo nel definire i bigdata come “una raccolta di dati così grande e complessa da richiedere strumenti differenti da quelli tradizionali per essere analizzati e visualizzati”. Poi iniziano un pò di differenze:

Tutti d’accordo che “I dati sarebbero provenienti potenzialmente da fonti eterogenee”, e qui c’è chi sostiene che sono tutti “dati strutturati” e chi invece vi aggiunge anche “dati non strutturati”.

Veniamo alle dimensioni che questi dati devono avere per essere chiamati BigData, qui ovviamente c’è discordanza e wikipedia in inglese giustamente sostiene che la bigdata size è costantemente in movimento, non potrebbe d’altronde essere diversamente considerando i tantissimi studi che ogni anno analizzano la crescita dei dati prodotti a livello mondiale. Nel 2012 si parlava di un range da dozzine di terabyte a diversi petabyte, per ogni dataset, mentre ora si parla di zettabyte (miliardi di terabyte).

Nel merito citiamo questo articolo provocatorio di Marco Russo inviato a Luca De Biase e da questo pubblicato nel suo blog.

Sulle caratteristiche dei BigData tutti sono d’accordo sulle 3 V:

Ed alcuni parlano di una 4′ V:

Ma cosa sta facendo il NIST relativamente la definizione di BigData? Si sa che il NIST si muove lentamente e macchinosamente, lo abbiamo imparato dai numerosi mesi o meglio anni in cui la definizione di Cloud Computing era permanentemente in bozza, ed iniziarono a lavorarci dal 2008.

Ebbene il NIST si inizia a muovere quando il governo USA decide di stanziare $200mil nella BigData Iniziative, parte cosi il BigData WorkShop del NIST ed un Working Group aperto a tutti, cosi come fu fatto per la definizione e tutti i documenti correlati al termine Cloud Computing

EcoSistema

Per mostrare la dimensione dell’ecosistema mondiale che ruota attorno a questo termine, osserviamo di seguito tre infografiche rispettivamente di Bloomberg, Forbes e Capgemini.

Big-Data-Landscape-bloomberg
Bloomberg
Forbes
Capgemini

Già da queste tre infografiche si evidenzia come siano massicciamente usate le soluzioni OpenSource nell’ecosistema BigData, addirittura Forbes nelle tecnologie mette solo sw OpenSource.

Dimensione

Vediamo un pò che mercato e che crescita c’è attorno a questo ecosistema BigData

Secondo Gartner (dati 2012), Big Data Will Drive $28 Billion of IT Spending , Big Data Creates Big Jobs: 4.4 Million IT Jobs Globally to Support Big Data By 2015

Ed ora gustiamoci queste due infografiche, una di Asigra e una dell’IBM, che si mostra molto attiva nel mondo BigData:

Insomma il mercato dei BigData richiede fondamentalmente poche cose:

Opportunità

I BigData, a mio giudizio, sono una grandissima opportunità per le grandi imprese di HW e SW IT (IBM,HP,EMC,Oracle,etc) in quanto risvegliano le necessità delle imprese verso l’acquisto di HW piuttosto che l’uso del Cloud Pubblico. Cresce anche l’esigenza di SW semplice, dedicato e personalizzato alle Data Analisi. Certo in molti casi si potrebbe mantenere e processare i dati presso i Cloud Provider, e questo è quello che già da diverso tempo consentono di fare i leader del mercato tipo AWS, con DynamoDB, RedShift, Elastic MapReduce, ma mantenere petabyte o zettabyte (se questi sono i valori a cui dobbiamo fare riferimento per poter parlare di Bigdata) in Cloud costa veramente tanto e credo possa addirittura convenire mantenersi una propria infrastruttura. Diverso è se abbiamo alcuni terabyte di dati su cui vogliamo fare DataAnalysis, e credo sia questo lo scenario più generale, dove i servizi di un Cloud pubblico tipo AWS diventano veramente concorrenziali.

Recentemente i Big dell’IT hanno fatto partite moltissime opportunità per imprese, startup e mondo della ricerca relativamente i BigData, per esempio EMC annuncia l’Hadoop Starter kit 2.0, oppure Microsoft che propone Hadoop nel cloud di Azure, oppure SAS si allea con SAP sulla piattaforma Hana, inoltre SAP HANA onDemand in AWS, o INTEL e AWS che offrono trial e gratuità, insomma c’è n’è per tutti i gusti, è una vera esplosione per l’economia IT.

Open Source e Cloud Computing

Sul BigData ed il Cloud Computing in pratica abbiamo già risposto, le possibilità sono tantissime, abbiamo citato il leader maximo (AWS) ed Azure, come offerte di Public Cloud, ma anche Google non manca di strumenti utili (BigQuery), d’altra parte basta ricordarci la famosa ed ormai vecchia BigTable di Google, che viene usata per il loro motore di ricerca.

Il Cloud Pubblico anche nel caso dei BigData può essere molto utile e molto democratico (sempre se non consideriamo le dimensioni dei dataset cosi come le definizioni vorrebbero). Pensate appunto alla semplicità di non dover gestire i sistemi di storage, i backup, i disaster recovery, di non dover gestire i SW di DataAnalysis (se usiamo qualche soluzione PaaS o SaaS), alla semplicità di poter mantenere poca potenza attiva durante i periodi di non analisi (pagando poco) e di poter istanziare potenza di calcolo solo durante le nostre query.

Veniamo ora al BigData e l’OpenSource; come abbiamo potuto finora rilevare un nome risuona forte in tutti gli scenari finora citati, HADOOP.

Hadoop è un framework software open-source (licenza Apache 2.0) per salvare e processare grandi quantità di dati in clusters di commodity hardware; nasce nel 2005 da Doug Cutting e Mike Cafarella e se non ricordo male nacque proprio come emulazione SW della BigTable di Google, per progetti di motori di ricerca concorrenti.

Da questo progetto ne sono nati tantissimi e sono nate anche tantissime soluzioni di storage distribuito. Hadoop ha ad esempio tantissimi progetti figlio, quali:

per citare i più noti del mondo Hadoop.

Ma l’opensource al servizio dei BigData non si ferma qui:

Per ora ci fermiamo qui ma continueremo ad aggiornare l’articolo.

 

Exit mobile version